Introduction

Dans le cadre de notre projet de statistiques, nous travaillerons sur un jeu de données environnementales. Ce jeu de données est composé de plusieurs fichiers qui contiennent des informations sur les oiseaux, les stations de mesure, les caractéristiques des oiseaux, leurs régimes alimentaires et la biodiversité.

Ce rapport a pour objectif de présenter les différentes analyses que nous avons réalisées sur ces données. Il est composé de trois parties principales dans lesquelles nous explorons les relations entre la diversité des espèces d’oiseaux, l’artificialisation des sols et la distance avec le centre-ville de Bordeaux. Nous avons également étudié les régimes alimentaires des oiseaux et les modes de nidification en fonction de certaines zones géographiques.

Vous trouverez des cartes, des graphiques, des tableaux, un sankie plot ainsi qu’un sunburst plot qui nous permettront de découvrir la mesure de la biodiversité.

L’ensemble de ces données sont tirées du travail des membres de l’INRAE unité BioGeCo et du bureau de télédetection I-sea.

Vous trouverez de nombreux résultats comme plusieurs courbes de diversité révélant la baisse significative de diversité dans les lieux les plus artificialisés. Vous trouverez également l’entièreté de notre cheminement pour arriver à nos résultats statistiques, notamment concernant la distribution des espèces d’oiseaux observées en Gironde, mais aussi des statistiques multivariées et descriptives.

Nous vous invitons à découvrir l’ensemble de nos analyses et à explorer les différentes visualisations que nous avons réalisées pour mieux comprendre les relations entre les différentes variables de notre jeu de données. Toutes nos visualisations sont interactives et vous permettent de zoomer, de déplacer et de cliquer sur les différents éléments pour obtenir plus d’informations. Cela vous permettra d’avoir une expérience plus immersive et vous permettra de créer vos propres analyses, en parallèle à celles réalisées par nos soins.

Exploration des données

Pour commencer, nous chargeons les données et nous les explorons pour mieux comprendre leur structure. Dans un premier temps, nous allons ajouter une colonne à notre DataFrame qui contient les noms latins des oiseaux afin de facilliter les analyses par la suite.

oiseaux <- read.csv("data/birds/Oiseaux_up_to_2023.csv", header = TRUE, sep = "\t")
# CRÉER UNE NOUVELLE COLONNE DANS LE DATAFRAME OISEAUX QUI CONTIENT LE NOM LATIN DE L'OISEAU
my_split <- function(array, str = " \\| ") {
  out <- rep(NA, length(array))
  for (i in 1:length(array)) {
    out[i] <- unlist(strsplit(array[i], str))[1]
  }
  return(out)
}

only_latin <- my_split(as.vector(oiseaux$Nom_Taxon_Cite))

oiseaux$latin <- only_latin
oiseaux$annee <- as.numeric(substr(oiseaux$Date, 1, 4))

Par la suite, nous allons explorer les données pour mieux comprendre la distribution des espèces d’oiseaux observées. Voici un tableau qui montre les 10 espèces d’oiseaux les plus fréquemment observées dans l’ensemble des données.

# LES ESPÈCES D'OISEAUX LES PLUS FRÉQUENTES OBSERVÉES DANS L'ENSEMBLE DES DONNÉES
as.data.frame(sort(table(oiseaux$latin), decreasing = TRUE)[1:10])

Nous allons maintenant explorer la fréquence des espèces d’oiseaux observées dans l’ensemble des données par année. Voici, par ordre alphabétique, le tableau mettant en évidence cette fréquence.

# FRÉQUENCE DES ESPÈCES D'OISEAUX OBSERVÉES DANS L'ENSEMBLE DES DONNÉES PAR ANNÉE
Annee <- my_split(as.vector(oiseaux$Date), str = "-")
oiseaux$Annee <- as.factor(Annee)
as.data.frame.matrix(table(oiseaux$latin, oiseaux$Annee))

Mesure de la diversité

Dans cette partie, nous allons explorer la mesure de la diversité à à l’aide de plusieurs entropies. Nous nous intéresserons uniquement au MOS11, c’est à dire les surfaces artificialisées. On prend comme buffer size 500m.

Dans un premier temps, nous allons utiliser la proportion d’espèces différentes observées dans une station pour mesurer la diversité. Dans un deuxième temps, nous allons utiliser l’entropie de Shannon et enfin l’indice de Simpson.

## Analyse de diversité par rapport à MOS11 et par année

denombrement <- oiseaux %>%
  group_by(Code_Maille, annee, latin) %>%
  summarise(sum = sum(Denombrement_min, na.rm = TRUE), .groups = "drop") %>%
  arrange(desc(Code_Maille))

denombrement$p <- rep(NA, nrow(denombrement))
for (i in 1:nrow(denombrement)) {
  numerator <- denombrement$sum[i]
  denominator <-
    sum(denombrement$sum[which(denombrement$Code_Maille == denombrement$Code_Maille[i]
                               & denombrement$annee == denombrement$annee[i])])
  denombrement$p[i] <- numerator / denominator
}

index <- denombrement %>%
  group_by(Code_Maille, annee = factor(annee)) %>%
  summarise(D1 = sum(p > 0, na.rm = TRUE),
            D2 = exp(-sum(p * log(p))),
            D3 = 1 / sum(p^2), .groups = "drop") %>%
  arrange(desc(Code_Maille))

LUP <- read.csv("data/birds/LandUsePer_BM_2023_cartoISea.csv", header = TRUE)
index$MOS11 <- rep(NA, nrow(index))
for (i in 1:nrow(index)) {
  index$MOS11[i] <- LUP$MOS11[which(index$Code_Maille[i] == LUP$ID & LUP$BufferSize == 500)]
}

Proportion d’espèces

Voici le graphique qui montre la relation entre la diversité et MOS11 pour chaque année expliquée par la proportion d’espèces.

ggplot(index, aes(x = MOS11, y = D1, color = as.factor(annee))) +
  geom_point(size = 2) +
  geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
  labs(title = "Proportion d’espèces en fonction de MOS11",
       x = "MOS11",
       y = "Proportion d'espèces") +
  theme_minimal() +
  labs(colour = "Année") +
  theme(legend.position = "bottom")

Indice de Shanon

Ceci est le graphique qui montre la relation entre la diversité et MOS11 pour chaque année expliquée par l’entropie de Shannon.

ggplot(index, aes(x = MOS11, y = D2, color = as.factor(annee))) +
  geom_point(size = 2) +
  geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
  labs(title = "Indice de Shanon en fonction de MOS11",
       x = "MOS11",
       y = "Indice de Shanon") +
  theme_minimal() +
  labs(colour = "Année") +
  theme(legend.position = "bottom")

Indice de Simpson

Ceci est le graphique qui montre la relation entre la diversité et MOS11 pour chaque année expliquée par l’indice de Simpson.

ggplot(index, aes(x = MOS11, y = D3, color = as.factor(annee))) +
  geom_point(size = 2) +
  geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
  labs(title = "Indice de Simpson en fonction de MOS11",
       x = "MOS11",
       y = "Indice de Simpson") +
  theme_minimal() +
  labs(colour = "Année") +
  theme(legend.position = "bottom")

La tendance globale est l’augmentation de la diversité au début de la courbe jusqu’à atteindre un maximum puis une baisse quand le MOS11 augmente davantage. C’est-à-dire que, moins les sols sont artificialisés, plus la diversité est grande avec une diversité maximale atteinte quand le milieu est à la fois artificialisé mais présente également des surfaces non artificialisées.

Notre deuxième partie se portera sur l’analyse de la diversité des espèces d’oiseaux en fonction de la distance avec le centre-ville de Bordeaux. On observera une tendance de diversité par rapport à la distance de la maille avec le centre ville qui diffère légèrement par rapport aux résultats ci-dessus. Pour ce faire, nous allons calculer toutes les distances de chaque maille à PeyBerland, qui sera notre point référent pour le centre.

Tendance de diversité par rapport à la distance avec le centre-ville

PeyBerland <- data.frame("Latitude" = 44.838168, "Longitude" = -0.578803)

# On convertit les coordonnées de PeyBerland en sf

PeyBerland <- st_as_sf(PeyBerland, coords = c("Longitude", "Latitude"), crs = 4326)

# On va créer un dataframe qui contient les coordonnées de toutes les stations code_maille

coordinates <- st_as_sf(LUP, coords = c("X", "Y"), crs = 2154)

# On va transformer les coordonnées de 2154 à 4326

coordinates <- st_transform(coordinates, crs = 4326)

# On va calculer les distances entre les stations et le centre ville PeyBerland

coordinates$Distance <- st_distance(coordinates, PeyBerland)

On ajoute les distances à nos données de diversité.

index$Distance <- rep(NA, nrow(index))
for (i in 1:nrow(index)) {
  index$Distance[i] <- coordinates$Distance[which(index$Code_Maille[i] == coordinates$ID & coordinates$BufferSize == 500)]
}

par(mfrow = c(1, 3))

Pour faire l’analyse, on utilise les trois mesures de diversité que nous avons utilisées précédemment.

Mesure de la diversité

Proportion d’espèces

Voici la courbe de diversité expliquée par la proportion d’espèces.

ggplot(index, aes(x = Distance, y = D1, color = as.factor(annee))) +
  geom_point(size = 2) +
  geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
  labs(title = "Proportion d'espèces en fonction de la distance au centre-ville",
       x = "Distance",
       y = "Proportion d'espèces") +
  theme_minimal() +
  labs(colour = "Année") +
  theme(legend.position = "bottom")

Indice de Shanon

Voici la courbe de diversité expliquée par l’entropie de Shannon.

ggplot(index, aes(x = Distance, y = D2, color = as.factor(annee))) +
  geom_point(size = 2) +
  geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
  labs(title = "Indice de Shanon en fonction de la distance au centre-ville",
       x = "Distance",
       y = "Indice de Shanon") +
  theme_minimal() +
  labs(colour = "Année") +
  theme(legend.position = "bottom")

Indice de Simpson

Voici la courbe de diversité expliquée par l’indice de Simpson.

ggplot(index, aes(x = Distance, y = D3, color = as.factor(annee))) +
  geom_point(size = 2) +
  geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
  labs(title = "Indice de Simpson en fonction de la distance au centre-ville",
       x = "Distance",
       y = "Indice de Simpson") +
  theme_minimal() +
  labs(colour = "Année") +
  theme(legend.position = "bottom")

La tendance globale est l’augmentation de la diversité au début de la courbe jusqu’à atteindre un maximum puis une baisse quand la distance avec le centre-ville augmente davantage. Nous pouvons voir que pour nos trois mesures de diversité, le pic est atteint à environ 9km. La diversité est donc plus grande lorsque la maille se trouver à environ 9km du centre-ville. Nous retrouvons donc la même observation qu’avec la variable d’artificialisation des sols (MOSS11), car l’artificialisation des sols et la distance avec le centre ville sont positivement corrélées (peut-etre essayer de mesurer la correlation entre ces deux variables sur nos données)

Par la suite, l’objectif va être de comprendre pourquoi ce pic de diversité des espèces est observé à ce pourcentage d’artificialisation. Pour ce faire, nous allons introduire un nouveau jeu de données sur les caractéristiques des espèces d’oiseaux. Nous allons combiner ce jeu de données avec les autres jeux de données afin d’en tirer des analyses, principalement grâce à des cartes interactives.

oiseaux <- read.csv("data/birds/Oiseaux_up_to_2023.csv", header = TRUE, sep = "\t")
LUP <- read.csv("data/birds/LandUsePer_BM_2023_cartoISea.csv", header = TRUE)
# CRÉER UNE NOUVELLE COLONNE DANS LE DATAFRAME OISEAUX QUI CONTIENT LE NOM LATIN DE L'OISEAU
# LE NOM LATIN EST LE PREMIER NOM DE LA COLONNE "Nom_Taxon_Cite
# SI LE NOM CONTIENT UN "|", LE NOM LATIN EST LE PREMIER NOM AVANT LE "|"

# Diviser les noms
my_split <- function(array, str = " \\| ") {
  out <- rep(NA, length(array))
  for (i in 1:length(array)) {
    out[i] <- unlist(strsplit(array[i], str))[1]
  }
  return(out)
}

# Tester la fonction
only_latin <- my_split(as.vector(oiseaux$Nom_Taxon_Cite))

# On ajoute la nouvelle colonne au dataframe
oiseaux$latin <- only_latin

Voici le tableau qui représente le MOS11 pour chaque station de mesure. Cette mesure nous indique à quel point le sol est artificialisé.

# CRÉER UNE NOUVELLE COLONNE DANS LE DATAFRAME OISEAUX QUI CONTIENT LA VALEUR MOS11 DU POINT
filter <- LUP$BufferSize == 500
LUP_500_MOS11 <- LUP[filter, c("Geometry", "ID", "X", "Y", "BufferSize", "MOS11")]
rownames(LUP_500_MOS11) <- 1:nrow(LUP_500_MOS11)
LUP_500_MOS11[, c("ID", "MOS11")]
MOS11 <- rep(NA, nrow(oiseaux))
for (i in 1:nrow(oiseaux)) {
  MOS11[i] <- which(oiseaux$Code_Maille[i] == LUP_500_MOS11$ID)
}

# Ajouter la colonne MOS11 au dataframe
oiseaux$MOS11 <- LUP_500_MOS11$MOS11[MOS11]

Analyses intéractives et géographiques

oiseaux <- read.csv("data/birds/Oiseaux_up_to_2023.csv", header = TRUE, sep = "\t")
# CREATE A NEW COLUMN IN THE OISEAUX DATAFRAME THAT CONTAINS THE LATIN NAME OF THE BIRD
my_split <- function(array, str = " \\| ") {
  out <- rep(NA, length(array))
  for (i in 1:length(array)) {
    out[i] <- unlist(strsplit(array[i], str))[1]
  }
  return (out)
}

only_latin <- my_split(as.vector(oiseaux$Nom_Taxon_Cite))
# length(unique(only_latin)) == length(unique(oiseaux$Code_Ref))

oiseaux$latin <- only_latin
oiseaux$annee <- as.numeric(substr(oiseaux$Date, 1, 4))

denombrement <- oiseaux %>%
  group_by(Code_Maille, annee, latin) %>%
  summarise(sum = sum(Denombrement_min, na.rm = TRUE), .groups = 'drop') %>%
  arrange(desc(Code_Maille))

denombrement$p <- rep(NA, nrow(denombrement))
for (i in 1:nrow(denombrement)) {
  numerator <- denombrement$sum[i]
  denominator <- 
    sum(denombrement$sum[which(denombrement$Code_Maille == denombrement$Code_Maille[i] 
                               & denombrement$annee == denombrement$annee[i])])
  denombrement$p[i] <- numerator / denominator
}

index <- denombrement %>%
  group_by(Code_Maille, annee = factor(annee)) %>%
  summarise(D1 = sum(p > 0, na.rm = TRUE), 
            D2 = exp(-sum(p*log(p))), 
            D3 = 1 / sum(p^2), .groups = 'drop') %>%
  arrange(desc(Code_Maille))

LUP <- read.csv("data/birds/LandUsePer_BM_2023_cartoISea.csv", header = TRUE)
index$MOS11 <- rep(NA, nrow(index))
for (i in 1:nrow(index)) {
  index$MOS11[i] <- LUP$MOS11[which(index$Code_Maille[i] == LUP$ID & LUP$BufferSize == 1000)]
}


traits <- read.csv("data/birds/traits-statut-IUCN-biodivercite.csv", header = TRUE)
cite <- read.csv("data/birds/BiodiverCite_sites.csv", header = TRUE, sep=";")

#on veut traiter la table dénombrement qu'on appelera denombrementCarte où il restera pour chaque maille et pour chaque année le top 3 des oiseaux les plus observés sans la variable p

denombrementCarte <- denombrement %>%
  group_by(Code_Maille, annee) %>%
  top_n(3, sum) %>%
  arrange(Code_Maille, annee, desc(sum)) %>%
  ungroup() %>%
  select(-p)


#on veut changer cette table pour faire apparaitre de nouvelles colonnes pour qu'il y ait : une ligne par maille et par année, et pour chaque oiseau, le nombre d'individus observés

denombrementCarte <- denombrementCarte %>%
  pivot_wider(names_from = latin, values_from = sum, values_fill = 0)


#on veut ajouter les colonnes geometry, buffer size et MOS11 à la table denombrementCarte et pas les autres

denombrementCarte <- left_join(denombrementCarte, LUP, by = c("Code_Maille" = "ID"))

#on enlève les colonnes : MOS1, MOS2, MOS3, MOS4, MOS5, MOS6, MOS7, MOS8, MOS9, MOS10, MOS12, MOS13, MOS14

denombrementCarte <- denombrementCarte %>%
  select(-c(MOS1, MOS2, MOS3, MOS4, MOS5, MOS6, MOS7, MOS8, MOS9, MOS10, MOS12, MOS13, MOS14))

# On garde que les lignes ou BufferSize == 500
denombrementCarte <- denombrementCarte %>%
  filter(BufferSize == 500)

denombrementCarte <- st_as_sf(denombrementCarte, coords = c("X", "Y"), crs = 2154)
denombrementCarte <- st_transform(denombrementCarte, crs = 4326)

# On garde seuelement les valeurs ou annee = 2018

denombrementCarte <- denombrementCarte %>%
  filter(annee == 2023)

denombrementCarte

Grâce à ce tableau, nous pouvons voir comment les données sont structurées et remarquer notamment qu’il classe le nombre d’oiseaux par maille et par année.

Dans la suite de ce rapport vous trouverez des analyses géographiques et interactives qui vous permettront de visualiser comment les oiseaux de la Gironde évoluent en fonction de l’artificialisation des sols. Vous y trouverez des analyses sur les régimes alimentaires des oiseaux, les niveaux de spécialisation des oiseaux en fonction de leur habitat (Maille).

Voici la carte interactive qui montre les mailles de mesure et les oiseaux les plus observés dans chaque maille. Nous vous invitons à cliquer sur les cercles pour obtenir toutes les informations sur les oiseaux.

# On garder que les colonnes qui nous intéressent, cad code_site et Nom_lieu

cite <- read.csv("data/birds/BiodiverCite_sites.csv", header = TRUE, sep=";")
cite <- cite %>%
  select(code_site, Nom_lieu)

#On join les deux tables cite et denombrementCarte

denombrementCarte <- left_join(denombrementCarte, cite, by = c("Code_Maille" = "code_site"))

# Créer une chaîne de caractères pour les popups avec le top trois des oiseaux ayant la plus grande valeur
denombrementCarte$popup_text <- paste0("<strong>Maille:</strong> ", denombrementCarte$Nom_lieu, "<br>",
                                      "<strong>Année:</strong> ", denombrementCarte$annee, "<br>",
                                      "<strong>Top 3 des oiseaux:</strong>", "<br>")

dataframe <- as.data.frame(denombrementCarte)

# On enleve les colonnes Code_Maille, annee, BufferSize, MOS11, Geometry, geometry
dataframe <- dataframe %>%
  select(-c(Code_Maille, annee, BufferSize, MOS11, Geometry, geometry, Nom_lieu))

# Ajouter les noms des oiseaux et leurs valeurs au popup_text pour chaque ligne
for (i in 1:nrow(dataframe)) {
  top_birds <- sort(unlist(dataframe[i, -c(ncol(dataframe))]), decreasing = TRUE)[1:3]
  top_bird_names <- names(top_birds)
  denombrementCarte$popup_text[i] <- paste0(denombrementCarte$popup_text[i],
                                            top_bird_names[1], ": ", top_birds[1], " - ", traits[which(traits$Nom.latin == top_bird_names[1]), "Niveau.de.spécialisation"], "<br>",
                                            top_bird_names[2], ": ", top_birds[2], " - ", traits[which(traits$Nom.latin == top_bird_names[2]), "Niveau.de.spécialisation"], "<br>",
                                            top_bird_names[3], ": ", top_birds[3], " - ", traits[which(traits$Nom.latin == top_bird_names[3]), "Niveau.de.spécialisation"])
}

pal <- colorNumeric("viridis", domain = denombrementCarte$MOS11)


leaflet(data = denombrementCarte) %>%
  addProviderTiles("CartoDB.Positron") %>%
  addCircles(radius = 300, color = ~pal(MOS11), fillOpacity = 0.2, popup = ~popup_text) %>%
  addLegend("bottomright", pal = pal, values = ~MOS11, title = "MOS11", position = "bottomright") %>%
  addScaleBar(position = "bottomleft")

Grâce à cette carte, nous obtenons le classement (Top 3) des oiseaux les plus observés dans chaque maille de mesure pour l’année 2023. Nous avons également ajouté une information supplémentaire sur chaque oiseau pour mettre en évidence son niveau de spécialisation afin de mieux comprendre de quel type de milieu il a besoin pour vivre et la géolocalisation sur la Gironde.

Nous pouvons voir que le niveau de spécialisation le plus répendu est généraliste car on en retrouve au centre-ville et en périphérie. Egalement, au centre ville, on retrouve des oiseaux de type Bâti et en périphérie loins du centre-ville, on retrouve des oiseaux de type Fôret et Agricole. Proche des points d’eau, on trouve des oiseaux de type Zone humide.

Ainsi, les zones qui combinent à la fois végétation et bâtiments seraient plus susceptibles d’accueillir des oiseaux avec des niveaux de spécialisation variés, ce qui expliquerait l’augmentation du taux de diversité observée dans les zones où se mélangent espaces verts et zones urbanisées.

Il nous semblait intéressant de savoir quels étaient les régimes alimentaires majoritaires principaux en fonction de chaque maille. Nous avons donc créé un graphique qui montre la répartition des régimes alimentaires pour chaque maille.

# changed the unmatchinng latin names to the correct ones to match alimentation
denombrement$latin[denombrement$latin == "Carduelis chloris"] <- "Chloris chloris"
denombrement$latin[denombrement$latin == "Carduelis spinus"] <- "Spinus spinus"
denombrement$latin[denombrement$latin == "Casmerodius albus"] <- "Ardea alba"
denombrement$latin[denombrement$latin == "Carduelis cannabina"] <- "Linaria cannabina"
no_info <- c("Himantopus himantopus", "Tringa ochropus", 
             "Caprimulgus europaeus", "Lanius senator", 
             "Dryocopus martius", "Emberiza calandra")

alimentation <- read.csv("data/birds/traits-statut-IUCN-biodivercite.csv", header = TRUE)
denombrement$regime_alimentaire <- rep(NA, nrow(denombrement))
for (i in 1:nrow(denombrement)) {
  if (denombrement$latin[i] %in% no_info){
    denombrement$regime_alimentaire[i] <- NA
  }
  else {
    denombrement$regime_alimentaire[i] <- 
      alimentation$Régime.alimentaire[which(alimentation$Nom.latin == denombrement$latin[i])]
  }
}
denombrement$regime_alimentaire <- as.factor(denombrement$regime_alimentaire)

plot_data = function (data, title) {
    ggplot(data, aes(x="", y=sum, fill=regime_alimentaire)) +
    geom_bar(stat="identity", width=0.1) +
    coord_polar("y", start=0) +
    ggtitle(paste("Station: ", as.character(title))) +
    theme_void()
}

cite <- cite %>%
  select(code_site, Nom_lieu)

#On join les deux tables cite et denombrementCarte

denombrement <- left_join(denombrement, cite, by = c("Code_Maille" = "code_site"))

N <- length(unique(denombrement$Code_Maille))
p <- vector("list", length = N)

for (i in 1:N) {
    data <- denombrement[which(denombrement$Code_Maille == unique(denombrement$Code_Maille)[i]),]
    data <- data %>% group_by(regime_alimentaire) %>% summarise(sum = sum(p, na.rm = TRUE))
    p[[i]] <- plot_data(data, unique(denombrement$Nom_lieu)[i])
}

coordinates <- st_as_sf(LUP, coords = c("X", "Y"), crs = 2154)
coordinates <- st_transform(coordinates, crs = 4326)
coordinates <- coordinates[coordinates$BufferSize == 500,]

# Remove the coordinates that are not in denombrement
for (i in seq_along(coordinates$ID)){
  if (!(coordinates$ID[i] %in% unique(denombrement$Code_Maille))){
    coordinates <- coordinates[-i,]
  }
}

coordinates <- coordinates[order(coordinates$ID, decreasing = TRUE),]

pal <- colorNumeric("viridis", domain = coordinates$MOS11)
leaflet(data = coordinates) %>%
  addProviderTiles("CartoDB.Positron") %>%
  addCircles(radius = 300, color = ~pal(MOS11), 
             fillOpacity = 0.5, group = "pnt") %>%
  addLegend("bottomright", pal = pal, values = coordinates$MOS11, title = "MOS11") %>%
  addScaleBar(position = "bottomleft") %>% 
  addPopupGraphs(p, width = 200, height = 200, group = "pnt")

Voici à quoi ressemble la carte interactive qui montre les régimes alimentaires majoritaires principaux en fonction de chaque maille. Nous pouvons voir qu’en général, le régime alimentaire dominant est le régime alimentaire mixte, que cela soit au centre de Bordeaux ou en périphérie. Il semble donc que le régime alimentaire de l’oiseau ne soit pas véritablement impacté par l’artificialisation des sols. Essayons maintenant d’étudier d’autre caratéristiques afin d’essayer de trouver des raisons à ce pic de diversité.

denombrement$Nidification <- rep(NA, nrow(denombrement))
for (i in 1:nrow(denombrement)) {
  if (denombrement$latin[i] %in% no_info){
    denombrement$Nidification[i] <- NA
  }
  else {
    denombrement$Nidification[i] <- 
      alimentation$Nidification[which(alimentation$Nom.latin == denombrement$latin[i])]
  }
}
denombrement$Nidification <- as.factor(denombrement$Nidification)

plot_data = function (data, title) {
    ggplot(data, aes(x="", y=sum, fill=Nidification)) +
    geom_bar(stat="identity", width=0.1) +
    coord_polar("y", start=0) +
    ggtitle(paste("Station: ", as.character(title))) +
    theme_void()
}

#On join les deux tables cite et denombrementCarte

N <- length(unique(denombrement$Code_Maille))
p <- vector("list", length = N)

for (i in 1:N) {
    data <- denombrement[which(denombrement$Code_Maille == unique(denombrement$Code_Maille)[i]),]
    data <- data %>% group_by(Nidification) %>% summarise(sum = sum(p, na.rm = TRUE))
    p[[i]] <- plot_data(data, unique(denombrement$Nom_lieu)[i])
}

coordinates <- st_as_sf(LUP, coords = c("X", "Y"), crs = 2154)
coordinates <- st_transform(coordinates, crs = 4326)
coordinates <- coordinates[coordinates$BufferSize == 500,]

# Remove the coordinates that are not in denombrement
for (i in seq_along(coordinates$ID)){
  if (!(coordinates$ID[i] %in% unique(denombrement$Code_Maille))){
    coordinates <- coordinates[-i,]
  }
}

coordinates <- coordinates[order(coordinates$ID, decreasing = TRUE),]

pal <- colorNumeric("viridis", domain = coordinates$MOS11)
leaflet(data = coordinates) %>%
  addProviderTiles("CartoDB.Positron") %>%
  addCircles(radius = 300, color = ~pal(MOS11), 
             fillOpacity = 0.5, group = "pnt2") %>%
  addLegend("bottomright", pal = pal, values = coordinates$MOS11, title = "MOS11") %>%
  addScaleBar(position = "bottomleft") %>% 
  addPopupGraphs(p, width = 200, height = 200, group = "pnt2")

Cette carte illustre la répartition des types de nidification en fonction des zones géographiques. Il est observé que dans les zones centrales, la majorité des nids sont situés dans des cavités, ce qui peut être attribué à la densité élevée de bâtiments et à la rareté de la végétation en ville. Le mode de nidification au sol est le moins courant dans ces zones, probablement en raison de la faible probabilité de survie des oiseaux dans un environnement urbain avec un nid au sol.

En périphérie, les modes de nidification semblent plus diversifiés, avec une prédominance de la nidification en buisson. La nidification dans les arbres est également très répandue, et on retrouve aussi la nidification en cavité. Le fait de ne pas être situé directement au centre-ville semble offrir plus de possibilités de nidification, ce qui pourrait expliquer une plus grande diversité d’espèces si on s’éloigne légèrement du centre ville, grâce à une combinaison de bâtiments et de végétation offrant plus de choix pour la nidification.

Pour aller plus loin

Cette section est dédiée à des analyses plus poussées qui pourraient être réalisées pour mieux comprendre les données et les relations entre les différentes variables. Vous trouverez un Parallel Coordinates Plot ainsi qu’un sun burst plot qui illustrent les caractéristiques des différentes espèces d’oiseaux.

Voici, ci-dessous le Parallel Coordinates Plot intéractif. Vous pouvez cliquer sur les différentes espèces pour obtenir plus d’informations sur chacune d’elles.

# --- Load data ---

birds_info <- read.csv("data/birds/traits-statut-IUCN-biodivercite.csv", header = TRUE)
birds_info <- birds_info[, c(
  "Nom.latin",
  "Niveau.de.spécialisation",
  "Régime.alimentaire",
  "Technique.d.alimentation",
  "Nidification",
  "Période.de.migration"
)]

# --- Parcoords data preparation ---

unique_level <- unique(birds_info[, "Niveau.de.spécialisation"])
unique_regime <- unique(birds_info[, "Régime.alimentaire"])
unique_technique <- unique(birds_info[, "Technique.d.alimentation"])
unique_nidi <- unique(birds_info[, "Nidification"])
unique_migration <- unique(birds_info[, "Période.de.migration"])

plot_ly(data.frame(), type = "parcoords", line = list(color = "blue"), height = 950,
  dimensions = list(
    list(
      label = "Espèces",
      range = c(0, length(birds_info[, "Nom.latin"]) + 1),
      tickvals = 1:length(birds_info[, "Nom.latin"]),
      ticktext = birds_info[, "Nom.latin"],
      values = 1:length(birds_info[, "Nom.latin"])
    ),
    list(
      label = "Technique d'alimentation",
      range = c(0, length(unique_technique) + 1),
      tickvals = as.numeric(factor(unique_technique)),
      ticktext = unique_technique,
      values = as.numeric(factor(birds_info[, "Technique.d.alimentation"]))
    ),
    list(
      label = "Nidification",
      range = c(0, length(unique_nidi) + 1),
      tickvals = as.numeric(factor(unique_nidi)),
      ticktext = unique_nidi,
      values = as.numeric(factor(birds_info[, "Nidification"]))
    ),
    list(
      label = "Niveau de spécialisation",
      range = c(0, length(unique_level) + 1),
      tickvals = as.numeric(factor(unique_level)),
      ticktext = unique_level,
      values = as.numeric(factor(birds_info[, "Niveau.de.spécialisation"]))
    ),
    list(
      label = "Période de migration",
      range = c(0, length(unique_migration) + 1),
      tickvals = as.numeric(factor(unique_migration)),
      ticktext = unique_migration,
      values = as.numeric(factor(birds_info[, "Période.de.migration"]))
    ),
    list(
      label = "Régime alimentaire",
      range = c(0, length(unique_regime) + 1),
      tickvals = as.numeric(factor(unique_regime)),
      ticktext = unique_regime,
      values = as.numeric(factor(birds_info[, "Régime.alimentaire"]))
    )
  )
) %>% layout(
  title = "Caractéristiques des différentes espèces d'oiseaux",
  margin = list(l = 140, r = 55, b = 0)
)

Exemple d’utilisation :

  • Nous voulons savoir le régime alimentaire des oiseaux qui migrent. Pour cela, il suffit de cliquer au niveau de “migrateur tardif” et de cliquer sur “Végétarien”, “Mixte” ou “carnivore” pour obtenir les espèces d’oiseaux qui correspondent à ces critères. Ceci est très utile lorsqu’on veut comparer le nombre d’oiseau selon les caractéristiques choisies ou même simplement rechercher l’espèce qui correspond à certains critères que l’on veut étudier. Pour finir l’exemple, si on clique au niveau de “Migrateur tardif”, on remarque qu’aucun oiseau n’est végétarien. De plus, on peut affiner notre sélection pour voir quelles espèces d’oiseaux sont des migrateurs tardifs et font leur nid dans les buissons. On clique ainsi sur buisson et on voit que l’espèce “Lanius collurio” correspond à ces critères. C’est une espèce carnivore qui migre tardivement et fait son nid dans les buissons qui a un niveau de spécialisation agricole et qui s’alimente en vol.
Voici une image de la pie-grièche écorcheur (Lanius collurio), wikipedia
Voici une image de la pie-grièche écorcheur (Lanius collurio), wikipedia
# --- Load data ---

LUP <- read.csv("data/birds/LandUsePer_BM_2023_cartoISea.csv", header = TRUE)
LUP <- LUP[, c(c("ID", "BufferSize"), paste0("MOS", 1:14))]

birds_obs <- read.csv("data/birds/Oiseaux_up_to_2023.csv", header = TRUE, sep = "\t")
birds_obs <- birds_obs[, c(c("Code_Maille", "Date", "Nom_Taxon_Cite", "Denombrement_min"))]
birds_obs <- birds_obs %>%
  rename(Year = Date, ID = Code_Maille, Latin = Nom_Taxon_Cite)

birds_obs[, "Year"] <- substr(birds_obs[, "Year"], start = 1, stop = 4)
birds_obs[, "Latin"] <- sapply(strsplit(birds_obs[, "Latin"], split = " | ", fixed = TRUE), function(x) x[1])

birds_obs <- birds_obs %>%
  group_by(ID, Year, Latin) %>%
  summarise(Sum = sum(Denombrement_min), .groups = "drop")

LUP_birds_obs <- merge(LUP, birds_obs, by = "ID")

# --- Sunburst data preparation ---

unique_year <- unique(LUP_birds_obs[, "Year"])
unique_year <- unique_year[order(unique_year)]

ids <- c("Année", unique_year)
for (year in unique_year) {
  ids <- c(ids, paste0(year, paste0(" - MOS", 1:14)))
}

for (year in unique_year) {
  for (mos in paste0("MOS", 1:14)) {
    for (specie in birds_info[, "Nom.latin"]) {
      ids <- c(ids, paste0(year, paste0(paste0(" - ", mos), paste0(" - ", specie))))
    }
  }
}

labels <- c("Année", unique_year, rep(paste0("MOS", 1:14), times = length(unique_year)))
labels <- c(labels, rep(birds_info[, "Nom.latin"], times = 14 * length(unique_year)))

parents <- c("", rep("Année", times = length(unique_year)), rep(unique_year, each = 14))
for (year in unique_year) {
  parents <- c(parents, paste0(year, rep(paste0(" - MOS", 1:14), each = length(birds_info[, "Nom.latin"]))))
}

values <- c(c(length(unique_year) * 14000, rep(14000, times = length(unique_year))), rep(1000, times = length(unique_year) * 14))
for (year in unique_year) {
  for (mos in paste0("MOS", 1:14)) {
    for (specie in birds_info[, "Nom.latin"]) {
      tmp <- LUP_birds_obs[LUP_birds_obs["Year"] == year & LUP_birds_obs["Latin"] == specie & LUP_birds_obs["BufferSize"] == 500, ]
      values <- c(values, sum(tmp[mos] * tmp["Sum"]))
    }
    tail_values <- values[(1 + length(values) - length(birds_info[, "Nom.latin"])):length(values)]
    values[(1 + length(values) - length(birds_info[, "Nom.latin"])):length(values)] <- tail_values / sum(tail_values) * 1000
  }
}

is_nan_values <- !is.na(values) & values != 0
ids <- ids[is_nan_values]
labels <- labels[is_nan_values]
parents <- parents[is_nan_values]
values <- values[is_nan_values]

# --- Sunburst display ---

plot_ly(
  ids = ids,
  labels = labels,
  parents = parents,
  values = values,
  type = "sunburst",
  branchvalues = "total",
  maxdepth = 2,
  insidetextorientation = "radial",
  hoverinfo = "label+percent entry",
  height = 800
) %>% layout(
  title = list(
    text = "Proportion des espèces d'oiseaux les plus couramment observées<br>en fonction de l'année et du MOS",
    y = 1.1
  ),
  margin = list(t = 100)
)

Conclusion

Après avoir mené une étude approfondie sur la diversité des oiseaux à Bordeaux et sa périphérie, nous avons pu faire plusieurs découvertes intéressantes en utilisant différentes mesures de diversité telles que la richesse spécifique, l’indice de Shannon et l’indice de Simpson.

Tout d’abord, nous avons découvert que la diversité des espèces d’oiseaux est étroitement liée au niveau d’artificialisation des sols, mesuré par la variable MOS11. En effet, nous avons constaté que la diversité est plus élevée dans les zones où se mélangent espaces verts et zones urbanisées. Cette observation suggère que les zones urbaines qui préservent des espaces verts et des habitats naturels sont plus susceptibles d’accueillir une grande diversité d’espèces d’oiseaux.

Ensuite, nous avons étudié la relation entre la diversité des espèces d’oiseaux et la distance au centre-ville. Nous avons constaté que la diversité est plus grande lorsque la maille se trouve à environ 9 km du centre-ville. Cette tendance s’explique en partie par le fait que les zones situées à cette distance du centre-ville sont souvent des zones de transition entre les espaces urbains et les espaces ruraux, offrant ainsi une variété d’habitats pour les oiseaux.

Par la suite, nous avons essayé de trouver des liens entre la diversité des espèces d’oiseaux et d’autres caractéristiques telles que les régimes alimentaires, les niveaux de spécialisation et les modes de nidification.

Pour les niveaux de spécialisation, nous avons observé que les oiseaux de type Bâti sont plus répandus dans les zones urbaines, tandis que les oiseaux de type Forêt et Agricole sont plus fréquents en périphérie. Il y aussi de nombreuses espèces de type Zone humide près des points d’eau. Il y a de nombreuses espèces généralistes au centre-ville et en périphérie. Ces observations suggèrent que la diversité des espèces est influencée par les caractéristiques des habitats.

Nous avons également étudié les régimes alimentaires des oiseaux et avons constaté que le régime alimentaire de l’oiseau ne semble pas être impacté par l’artificialisation des sols. Cette observation suggère que les oiseaux sont capables de s’adapter à leur environnement et de trouver de la nourriture même dans les zones urbaines.

Enfin, nous avons étudié les modes de nidification des oiseaux et avons constaté que les zones qui combinent à la fois végétation et bâtiments sont plus susceptibles d’accueillir des oiseaux avec des modes de nidification variés. Par exemple, les zones centrales sont propices à la nidification en cavité en raison de la densité élevée de bâtiments, tandis que les zones périphériques offrent plus de possibilités de nidification en buisson et dans les arbres.
Cette observation souligne l’importance de préserver et de restaurer les habitats naturels dans les zones urbaines pour maintenir un niveau maximal de diversité des espèces d’oiseaux.

En conclusion, notre étude a permis de mettre en évidence l’importance de préserver et de restaurer les habitats naturels dans les zones urbaines pour maintenir la biodiversité des oiseaux. Nous avons constaté que les zones de transition entre les espaces urbains et ruraux sont des zones clés pour la diversité des espèces d’oiseaux. Nous avons également observé que les oiseaux sont capables de s’adapter à leur environnement et de trouver de la nourriture même dans les zones urbaines. Ces résultats soulignent l’importance de prendre en compte la biodiversité dans les politiques d’aménagement urbain et de préserver les habitats naturels pour maintenir la diversité des espèces d’oiseaux. En utilisant différentes mesures de diversité, nous avons pu confirmer ces résultats et renforcer la validité de notre étude.

mos_table <- read.csv("data/birds/themes_mos_gir.txt", header = TRUE, sep = "\t")
mos_table <- mos_table[, c("ID", "MOS")]
mos_table["ID"] <- paste0("MOS", mos_table[, "ID"])

mos_table
---
title: "Projet stat pour données environnementales"
author: "Alexandre Leys, Baptiste Gerbouin, Hamad Tria, Louis Delignac, Théo Lavandier"
date: "`r format(Sys.Date(), '%d %B, %Y')`"
output:
  html_document:
    code_folding: hide
    code_download: true
    theme: united
    highlight: tango
    df_print: paged
    toc: true
    toc_float: true
    toc_depth: 2
  # pdf_document:
  #   toc: true
  #   toc_depth: 2
  #   number_sections: true
  #   df_print: kable
  #   highlight: tango
---

<style>
  .tocify-extend-page {
    display: none;
  }
</style>

# Introduction


Dans le cadre de notre projet de statistiques, nous travaillerons sur un jeu de données environnementales.
Ce jeu de données est composé de plusieurs fichiers qui contiennent des informations sur les oiseaux, les stations de mesure, les caractéristiques des oiseaux, leurs régimes alimentaires et la biodiversité.

Ce rapport a pour objectif de présenter les différentes analyses que nous avons réalisées sur ces données.
Il est composé de trois parties principales dans lesquelles nous explorons les relations entre la diversité des espèces d'oiseaux, l'artificialisation des sols et la distance avec le centre-ville de Bordeaux.
Nous avons également étudié les régimes alimentaires des oiseaux et les modes de nidification en fonction de certaines zones géographiques.

Vous trouverez des cartes, des graphiques, des tableaux, un sankie plot ainsi qu'un sunburst plot qui nous permettront de découvrir la mesure de la biodiversité.

L'ensemble de ces données sont tirées du travail des membres de l'INRAE unité BioGeCo et du bureau de télédetection I-sea.

Vous trouverez de nombreux résultats comme plusieurs courbes de diversité révélant la baisse significative de diversité dans les lieux les plus artificialisés.
Vous trouverez également l'entièreté de notre cheminement pour arriver à nos résultats statistiques, notamment concernant la distribution des espèces d'oiseaux observées en Gironde, mais aussi des statistiques multivariées et descriptives.

Nous vous invitons à découvrir l'ensemble de nos analyses et à explorer les différentes visualisations que nous avons réalisées pour mieux comprendre les relations entre les différentes variables de notre jeu de données.
Toutes nos visualisations sont interactives et vous permettent de zoomer, de déplacer et de cliquer sur les différents éléments pour obtenir plus d'informations.
Cela vous permettra d'avoir une expérience plus immersive et vous permettra de créer vos propres analyses, en parallèle à celles réalisées par nos soins.

```{r setup, message=FALSE, echo=FALSE, warning=FALSE}
# Packages de gestion des données
library(tidyverse)
library(sf)

# Packages pour visualisation des données
library(ggplot2)
library(ggspatial)
library(kableExtra)
library(lattice)
library(plotly)

# Packages pour visualisation de cartes intéractives
library(leaflet)
library(leafpop)
library(leaflet.extras)

knitr::opts_chunk$set(out.width = "100%", echo = TRUE)
```

# Exploration des données

Pour commencer, nous chargeons les données et nous les explorons pour mieux comprendre leur structure.
Dans un premier temps, nous allons ajouter une colonne à notre DataFrame qui contient les noms latins des oiseaux afin de facilliter les analyses par la suite.
```{r}
oiseaux <- read.csv("data/birds/Oiseaux_up_to_2023.csv", header = TRUE, sep = "\t")
# CRÉER UNE NOUVELLE COLONNE DANS LE DATAFRAME OISEAUX QUI CONTIENT LE NOM LATIN DE L'OISEAU
my_split <- function(array, str = " \\| ") {
  out <- rep(NA, length(array))
  for (i in 1:length(array)) {
    out[i] <- unlist(strsplit(array[i], str))[1]
  }
  return(out)
}

only_latin <- my_split(as.vector(oiseaux$Nom_Taxon_Cite))

oiseaux$latin <- only_latin
oiseaux$annee <- as.numeric(substr(oiseaux$Date, 1, 4))
```


Par la suite, nous allons explorer les données pour mieux comprendre la distribution des espèces d'oiseaux observées.
Voici un tableau qui montre les 10 espèces d'oiseaux les plus fréquemment observées dans l'ensemble des données.
```{r}
# LES ESPÈCES D'OISEAUX LES PLUS FRÉQUENTES OBSERVÉES DANS L'ENSEMBLE DES DONNÉES
as.data.frame(sort(table(oiseaux$latin), decreasing = TRUE)[1:10])
```

Nous allons maintenant explorer la fréquence des espèces d'oiseaux observées dans l'ensemble des données par année.
Voici, par ordre alphabétique, le tableau mettant en évidence cette fréquence.

```{r}
# FRÉQUENCE DES ESPÈCES D'OISEAUX OBSERVÉES DANS L'ENSEMBLE DES DONNÉES PAR ANNÉE
Annee <- my_split(as.vector(oiseaux$Date), str = "-")
oiseaux$Annee <- as.factor(Annee)
as.data.frame.matrix(table(oiseaux$latin, oiseaux$Annee))
```

### Mesure de la diversité {.tabset}

Dans cette partie, nous allons explorer la mesure de la diversité à à l'aide de plusieurs entropies.
Nous nous intéresserons uniquement au MOS11, c'est à dire les surfaces artificialisées. On prend comme buffer size 500m.

Dans un premier temps, nous allons utiliser la proportion d’espèces différentes observées dans une station pour mesurer la diversité. Dans un deuxième temps, nous allons utiliser l’entropie de Shannon et enfin l'indice de Simpson.

```{r, message=FALSE, warning=FALSE}
## Analyse de diversité par rapport à MOS11 et par année

denombrement <- oiseaux %>%
  group_by(Code_Maille, annee, latin) %>%
  summarise(sum = sum(Denombrement_min, na.rm = TRUE), .groups = "drop") %>%
  arrange(desc(Code_Maille))

denombrement$p <- rep(NA, nrow(denombrement))
for (i in 1:nrow(denombrement)) {
  numerator <- denombrement$sum[i]
  denominator <-
    sum(denombrement$sum[which(denombrement$Code_Maille == denombrement$Code_Maille[i]
                               & denombrement$annee == denombrement$annee[i])])
  denombrement$p[i] <- numerator / denominator
}

index <- denombrement %>%
  group_by(Code_Maille, annee = factor(annee)) %>%
  summarise(D1 = sum(p > 0, na.rm = TRUE),
            D2 = exp(-sum(p * log(p))),
            D3 = 1 / sum(p^2), .groups = "drop") %>%
  arrange(desc(Code_Maille))

LUP <- read.csv("data/birds/LandUsePer_BM_2023_cartoISea.csv", header = TRUE)
index$MOS11 <- rep(NA, nrow(index))
for (i in 1:nrow(index)) {
  index$MOS11[i] <- LUP$MOS11[which(index$Code_Maille[i] == LUP$ID & LUP$BufferSize == 500)]
}
```

#### Proportion d'espèces

Voici le graphique qui montre la relation entre la diversité et MOS11 pour chaque année expliquée par la proportion d'espèces.
```{r, message=FALSE, warning=FALSE, error=FALSE}
ggplot(index, aes(x = MOS11, y = D1, color = as.factor(annee))) +
  geom_point(size = 2) +
  geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
  labs(title = "Proportion d’espèces en fonction de MOS11",
       x = "MOS11",
       y = "Proportion d'espèces") +
  theme_minimal() +
  labs(colour = "Année") +
  theme(legend.position = "bottom")
```

#### Indice de Shanon

Ceci est le graphique qui montre la relation entre la diversité et MOS11 pour chaque année expliquée par l'entropie de Shannon.
```{r, message=FALSE, warning=FALSE, error=FALSE}
ggplot(index, aes(x = MOS11, y = D2, color = as.factor(annee))) +
  geom_point(size = 2) +
  geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
  labs(title = "Indice de Shanon en fonction de MOS11",
       x = "MOS11",
       y = "Indice de Shanon") +
  theme_minimal() +
  labs(colour = "Année") +
  theme(legend.position = "bottom")
```

#### Indice de Simpson

Ceci est le graphique qui montre la relation entre la diversité et MOS11 pour chaque année expliquée par l'indice de Simpson.
```{r, message=FALSE, warning=FALSE, error=FALSE}
ggplot(index, aes(x = MOS11, y = D3, color = as.factor(annee))) +
  geom_point(size = 2) +
  geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
  labs(title = "Indice de Simpson en fonction de MOS11",
       x = "MOS11",
       y = "Indice de Simpson") +
  theme_minimal() +
  labs(colour = "Année") +
  theme(legend.position = "bottom")
```

###

La tendance globale est l'augmentation de la diversité au début de la courbe jusqu'à atteindre un maximum puis une baisse quand le MOS11 augmente davantage. C'est-à-dire que, moins les sols sont artificialisés, plus la diversité est grande avec une diversité maximale atteinte quand le milieu est à la fois artificialisé mais présente également des surfaces non artificialisées. 


Notre deuxième partie se portera sur l'analyse de la diversité des espèces d'oiseaux en fonction de la distance avec le centre-ville de Bordeaux.
On observera une tendance de diversité par rapport à la distance de la maille avec le centre ville qui diffère légèrement par rapport aux résultats ci-dessus.
Pour ce faire, nous allons calculer toutes les distances de chaque maille à PeyBerland, qui sera notre point référent pour le centre. 

# Tendance de diversité par rapport à la distance avec le centre-ville

```{r}
PeyBerland <- data.frame("Latitude" = 44.838168, "Longitude" = -0.578803)

# On convertit les coordonnées de PeyBerland en sf

PeyBerland <- st_as_sf(PeyBerland, coords = c("Longitude", "Latitude"), crs = 4326)

# On va créer un dataframe qui contient les coordonnées de toutes les stations code_maille

coordinates <- st_as_sf(LUP, coords = c("X", "Y"), crs = 2154)

# On va transformer les coordonnées de 2154 à 4326

coordinates <- st_transform(coordinates, crs = 4326)

# On va calculer les distances entre les stations et le centre ville PeyBerland

coordinates$Distance <- st_distance(coordinates, PeyBerland)
```

On ajoute les distances à nos données de diversité. 

```{r, message=FALSE}
index$Distance <- rep(NA, nrow(index))
for (i in 1:nrow(index)) {
  index$Distance[i] <- coordinates$Distance[which(index$Code_Maille[i] == coordinates$ID & coordinates$BufferSize == 500)]
}

par(mfrow = c(1, 3))
```

Pour faire l'analyse, on utilise les trois mesures de diversité que nous avons utilisées précédemment.

### Mesure de la diversité {.tabset}

#### Proportion d'espèces

Voici la courbe de diversité expliquée par la proportion d'espèces.
```{r, message=FALSE, warning=FALSE, error=FALSE}
ggplot(index, aes(x = Distance, y = D1, color = as.factor(annee))) +
  geom_point(size = 2) +
  geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
  labs(title = "Proportion d'espèces en fonction de la distance au centre-ville",
       x = "Distance",
       y = "Proportion d'espèces") +
  theme_minimal() +
  labs(colour = "Année") +
  theme(legend.position = "bottom")
```

#### Indice de Shanon

Voici la courbe de diversité expliquée par l'entropie de Shannon.
```{r, message=FALSE, warning=FALSE, error=FALSE}
ggplot(index, aes(x = Distance, y = D2, color = as.factor(annee))) +
  geom_point(size = 2) +
  geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
  labs(title = "Indice de Shanon en fonction de la distance au centre-ville",
       x = "Distance",
       y = "Indice de Shanon") +
  theme_minimal() +
  labs(colour = "Année") +
  theme(legend.position = "bottom")
```

#### Indice de Simpson

Voici la courbe de diversité expliquée par l'indice de Simpson.
```{r, message=FALSE, warning=FALSE, error=FALSE}
ggplot(index, aes(x = Distance, y = D3, color = as.factor(annee))) +
  geom_point(size = 2) +
  geom_smooth(method = "auto", se = TRUE, color = "black", alpha = 0.2) +
  labs(title = "Indice de Simpson en fonction de la distance au centre-ville",
       x = "Distance",
       y = "Indice de Simpson") +
  theme_minimal() +
  labs(colour = "Année") +
  theme(legend.position = "bottom")
```

###

La tendance globale est l'augmentation de la diversité au début de la courbe jusqu'à atteindre un maximum puis une baisse quand la distance avec le centre-ville augmente davantage. Nous pouvons voir que pour nos trois mesures de diversité, le pic est atteint à environ 9km. La diversité est donc plus grande lorsque la maille se trouver à environ 9km du centre-ville.
Nous retrouvons donc la même observation qu'avec la variable d'artificialisation des sols (MOSS11), car l'artificialisation des sols et la distance avec le centre ville sont positivement corrélées (peut-etre essayer de mesurer la correlation entre ces deux variables sur nos données)


Par la suite, l'objectif va être de comprendre pourquoi ce pic de diversité des espèces est observé à ce pourcentage d'artificialisation. Pour ce faire, nous allons introduire un nouveau jeu de données sur les caractéristiques des espèces d'oiseaux.
Nous allons combiner ce jeu de données avec les autres jeux de données afin d'en tirer des analyses, principalement grâce à des cartes interactives. 


```{r}
oiseaux <- read.csv("data/birds/Oiseaux_up_to_2023.csv", header = TRUE, sep = "\t")
LUP <- read.csv("data/birds/LandUsePer_BM_2023_cartoISea.csv", header = TRUE)
```

```{r}
# CRÉER UNE NOUVELLE COLONNE DANS LE DATAFRAME OISEAUX QUI CONTIENT LE NOM LATIN DE L'OISEAU
# LE NOM LATIN EST LE PREMIER NOM DE LA COLONNE "Nom_Taxon_Cite
# SI LE NOM CONTIENT UN "|", LE NOM LATIN EST LE PREMIER NOM AVANT LE "|"

# Diviser les noms
my_split <- function(array, str = " \\| ") {
  out <- rep(NA, length(array))
  for (i in 1:length(array)) {
    out[i] <- unlist(strsplit(array[i], str))[1]
  }
  return(out)
}

# Tester la fonction
only_latin <- my_split(as.vector(oiseaux$Nom_Taxon_Cite))

# On ajoute la nouvelle colonne au dataframe
oiseaux$latin <- only_latin
```

Voici le tableau qui représente le MOS11 pour chaque station de mesure.
Cette mesure nous indique à quel point le sol est artificialisé.
```{r}
# CRÉER UNE NOUVELLE COLONNE DANS LE DATAFRAME OISEAUX QUI CONTIENT LA VALEUR MOS11 DU POINT
filter <- LUP$BufferSize == 500
LUP_500_MOS11 <- LUP[filter, c("Geometry", "ID", "X", "Y", "BufferSize", "MOS11")]
rownames(LUP_500_MOS11) <- 1:nrow(LUP_500_MOS11)
LUP_500_MOS11[, c("ID", "MOS11")]

MOS11 <- rep(NA, nrow(oiseaux))
for (i in 1:nrow(oiseaux)) {
  MOS11[i] <- which(oiseaux$Code_Maille[i] == LUP_500_MOS11$ID)
}

# Ajouter la colonne MOS11 au dataframe
oiseaux$MOS11 <- LUP_500_MOS11$MOS11[MOS11]
```

# Analyses intéractives et géographiques

```{r message=FALSE, warning=FALSE}
oiseaux <- read.csv("data/birds/Oiseaux_up_to_2023.csv", header = TRUE, sep = "\t")
# CREATE A NEW COLUMN IN THE OISEAUX DATAFRAME THAT CONTAINS THE LATIN NAME OF THE BIRD
my_split <- function(array, str = " \\| ") {
  out <- rep(NA, length(array))
  for (i in 1:length(array)) {
    out[i] <- unlist(strsplit(array[i], str))[1]
  }
  return (out)
}

only_latin <- my_split(as.vector(oiseaux$Nom_Taxon_Cite))
# length(unique(only_latin)) == length(unique(oiseaux$Code_Ref))

oiseaux$latin <- only_latin
oiseaux$annee <- as.numeric(substr(oiseaux$Date, 1, 4))

denombrement <- oiseaux %>%
  group_by(Code_Maille, annee, latin) %>%
  summarise(sum = sum(Denombrement_min, na.rm = TRUE), .groups = 'drop') %>%
  arrange(desc(Code_Maille))

denombrement$p <- rep(NA, nrow(denombrement))
for (i in 1:nrow(denombrement)) {
  numerator <- denombrement$sum[i]
  denominator <- 
    sum(denombrement$sum[which(denombrement$Code_Maille == denombrement$Code_Maille[i] 
                               & denombrement$annee == denombrement$annee[i])])
  denombrement$p[i] <- numerator / denominator
}

index <- denombrement %>%
  group_by(Code_Maille, annee = factor(annee)) %>%
  summarise(D1 = sum(p > 0, na.rm = TRUE), 
            D2 = exp(-sum(p*log(p))), 
            D3 = 1 / sum(p^2), .groups = 'drop') %>%
  arrange(desc(Code_Maille))

LUP <- read.csv("data/birds/LandUsePer_BM_2023_cartoISea.csv", header = TRUE)
index$MOS11 <- rep(NA, nrow(index))
for (i in 1:nrow(index)) {
  index$MOS11[i] <- LUP$MOS11[which(index$Code_Maille[i] == LUP$ID & LUP$BufferSize == 1000)]
}


traits <- read.csv("data/birds/traits-statut-IUCN-biodivercite.csv", header = TRUE)
cite <- read.csv("data/birds/BiodiverCite_sites.csv", header = TRUE, sep=";")

#on veut traiter la table dénombrement qu'on appelera denombrementCarte où il restera pour chaque maille et pour chaque année le top 3 des oiseaux les plus observés sans la variable p

denombrementCarte <- denombrement %>%
  group_by(Code_Maille, annee) %>%
  top_n(3, sum) %>%
  arrange(Code_Maille, annee, desc(sum)) %>%
  ungroup() %>%
  select(-p)


#on veut changer cette table pour faire apparaitre de nouvelles colonnes pour qu'il y ait : une ligne par maille et par année, et pour chaque oiseau, le nombre d'individus observés

denombrementCarte <- denombrementCarte %>%
  pivot_wider(names_from = latin, values_from = sum, values_fill = 0)


#on veut ajouter les colonnes geometry, buffer size et MOS11 à la table denombrementCarte et pas les autres

denombrementCarte <- left_join(denombrementCarte, LUP, by = c("Code_Maille" = "ID"))

#on enlève les colonnes : MOS1, MOS2, MOS3, MOS4, MOS5, MOS6, MOS7, MOS8, MOS9, MOS10, MOS12, MOS13, MOS14

denombrementCarte <- denombrementCarte %>%
  select(-c(MOS1, MOS2, MOS3, MOS4, MOS5, MOS6, MOS7, MOS8, MOS9, MOS10, MOS12, MOS13, MOS14))

# On garde que les lignes ou BufferSize == 500
denombrementCarte <- denombrementCarte %>%
  filter(BufferSize == 500)

denombrementCarte <- st_as_sf(denombrementCarte, coords = c("X", "Y"), crs = 2154)
denombrementCarte <- st_transform(denombrementCarte, crs = 4326)

# On garde seuelement les valeurs ou annee = 2018

denombrementCarte <- denombrementCarte %>%
  filter(annee == 2023)

denombrementCarte
```
Grâce à ce tableau, nous pouvons voir comment les données sont structurées et remarquer notamment qu'il classe le nombre d'oiseaux par maille et par année.


Dans la suite de ce rapport vous trouverez des analyses géographiques et interactives qui vous permettront de visualiser comment les oiseaux de la Gironde évoluent en fonction de l'artificialisation des sols.
Vous y trouverez des analyses sur les régimes alimentaires des oiseaux, les niveaux de spécialisation des oiseaux en fonction de leur habitat (Maille).

Voici la carte interactive qui montre les mailles de mesure et les oiseaux les plus observés dans chaque maille.
Nous vous invitons à cliquer sur les cercles pour obtenir toutes les informations sur les oiseaux.
```{r message=FALSE, warning=FALSE}
# On garder que les colonnes qui nous intéressent, cad code_site et Nom_lieu

cite <- read.csv("data/birds/BiodiverCite_sites.csv", header = TRUE, sep=";")
cite <- cite %>%
  select(code_site, Nom_lieu)

#On join les deux tables cite et denombrementCarte

denombrementCarte <- left_join(denombrementCarte, cite, by = c("Code_Maille" = "code_site"))

# Créer une chaîne de caractères pour les popups avec le top trois des oiseaux ayant la plus grande valeur
denombrementCarte$popup_text <- paste0("<strong>Maille:</strong> ", denombrementCarte$Nom_lieu, "<br>",
                                      "<strong>Année:</strong> ", denombrementCarte$annee, "<br>",
                                      "<strong>Top 3 des oiseaux:</strong>", "<br>")

dataframe <- as.data.frame(denombrementCarte)

# On enleve les colonnes Code_Maille, annee, BufferSize, MOS11, Geometry, geometry
dataframe <- dataframe %>%
  select(-c(Code_Maille, annee, BufferSize, MOS11, Geometry, geometry, Nom_lieu))

# Ajouter les noms des oiseaux et leurs valeurs au popup_text pour chaque ligne
for (i in 1:nrow(dataframe)) {
  top_birds <- sort(unlist(dataframe[i, -c(ncol(dataframe))]), decreasing = TRUE)[1:3]
  top_bird_names <- names(top_birds)
  denombrementCarte$popup_text[i] <- paste0(denombrementCarte$popup_text[i],
                                            top_bird_names[1], ": ", top_birds[1], " - ", traits[which(traits$Nom.latin == top_bird_names[1]), "Niveau.de.spécialisation"], "<br>",
                                            top_bird_names[2], ": ", top_birds[2], " - ", traits[which(traits$Nom.latin == top_bird_names[2]), "Niveau.de.spécialisation"], "<br>",
                                            top_bird_names[3], ": ", top_birds[3], " - ", traits[which(traits$Nom.latin == top_bird_names[3]), "Niveau.de.spécialisation"])
}

pal <- colorNumeric("viridis", domain = denombrementCarte$MOS11)


leaflet(data = denombrementCarte) %>%
  addProviderTiles("CartoDB.Positron") %>%
  addCircles(radius = 300, color = ~pal(MOS11), fillOpacity = 0.2, popup = ~popup_text) %>%
  addLegend("bottomright", pal = pal, values = ~MOS11, title = "MOS11", position = "bottomright") %>%
  addScaleBar(position = "bottomleft")
```
Grâce à cette carte, nous obtenons le classement (Top 3) des oiseaux les plus observés dans chaque maille de mesure pour l'année 2023.
Nous avons également ajouté une information supplémentaire sur chaque oiseau pour mettre en évidence son niveau de spécialisation afin de mieux comprendre de quel type de milieu il a besoin pour vivre et la géolocalisation sur la Gironde.

Nous pouvons voir que le niveau de spécialisation le plus répendu est généraliste car on en retrouve au centre-ville et en périphérie.
Egalement, au centre ville, on retrouve des oiseaux de type Bâti et en périphérie loins du centre-ville, on retrouve des oiseaux de type Fôret et Agricole. Proche des points d'eau, on trouve des oiseaux de type Zone humide. 

Ainsi, les zones qui combinent à la fois végétation et bâtiments seraient plus susceptibles d'accueillir des oiseaux avec des niveaux de spécialisation variés, ce qui expliquerait l'augmentation du taux de diversité observée dans les zones où se mélangent espaces verts et zones urbanisées.

Il nous semblait intéressant de savoir quels étaient les régimes alimentaires majoritaires principaux en fonction de chaque maille.
Nous avons donc créé un graphique qui montre la répartition des régimes alimentaires pour chaque maille.

```{r}
# changed the unmatchinng latin names to the correct ones to match alimentation
denombrement$latin[denombrement$latin == "Carduelis chloris"] <- "Chloris chloris"
denombrement$latin[denombrement$latin == "Carduelis spinus"] <- "Spinus spinus"
denombrement$latin[denombrement$latin == "Casmerodius albus"] <- "Ardea alba"
denombrement$latin[denombrement$latin == "Carduelis cannabina"] <- "Linaria cannabina"
no_info <- c("Himantopus himantopus", "Tringa ochropus", 
             "Caprimulgus europaeus", "Lanius senator", 
             "Dryocopus martius", "Emberiza calandra")

alimentation <- read.csv("data/birds/traits-statut-IUCN-biodivercite.csv", header = TRUE)
denombrement$regime_alimentaire <- rep(NA, nrow(denombrement))
for (i in 1:nrow(denombrement)) {
  if (denombrement$latin[i] %in% no_info){
    denombrement$regime_alimentaire[i] <- NA
  }
  else {
    denombrement$regime_alimentaire[i] <- 
      alimentation$Régime.alimentaire[which(alimentation$Nom.latin == denombrement$latin[i])]
  }
}
denombrement$regime_alimentaire <- as.factor(denombrement$regime_alimentaire)

plot_data = function (data, title) {
    ggplot(data, aes(x="", y=sum, fill=regime_alimentaire)) +
    geom_bar(stat="identity", width=0.1) +
    coord_polar("y", start=0) +
    ggtitle(paste("Station: ", as.character(title))) +
    theme_void()
}

cite <- cite %>%
  select(code_site, Nom_lieu)

#On join les deux tables cite et denombrementCarte

denombrement <- left_join(denombrement, cite, by = c("Code_Maille" = "code_site"))

N <- length(unique(denombrement$Code_Maille))
p <- vector("list", length = N)

for (i in 1:N) {
    data <- denombrement[which(denombrement$Code_Maille == unique(denombrement$Code_Maille)[i]),]
    data <- data %>% group_by(regime_alimentaire) %>% summarise(sum = sum(p, na.rm = TRUE))
    p[[i]] <- plot_data(data, unique(denombrement$Nom_lieu)[i])
}

coordinates <- st_as_sf(LUP, coords = c("X", "Y"), crs = 2154)
coordinates <- st_transform(coordinates, crs = 4326)
coordinates <- coordinates[coordinates$BufferSize == 500,]

# Remove the coordinates that are not in denombrement
for (i in seq_along(coordinates$ID)){
  if (!(coordinates$ID[i] %in% unique(denombrement$Code_Maille))){
    coordinates <- coordinates[-i,]
  }
}

coordinates <- coordinates[order(coordinates$ID, decreasing = TRUE),]

pal <- colorNumeric("viridis", domain = coordinates$MOS11)
leaflet(data = coordinates) %>%
  addProviderTiles("CartoDB.Positron") %>%
  addCircles(radius = 300, color = ~pal(MOS11), 
             fillOpacity = 0.5, group = "pnt") %>%
  addLegend("bottomright", pal = pal, values = coordinates$MOS11, title = "MOS11") %>%
  addScaleBar(position = "bottomleft") %>% 
  addPopupGraphs(p, width = 200, height = 200, group = "pnt")
```

Voici à quoi ressemble la carte interactive qui montre les régimes alimentaires majoritaires principaux en fonction de chaque maille. Nous pouvons voir qu'en général, le régime alimentaire dominant est le régime alimentaire mixte, que cela soit au centre de Bordeaux ou en périphérie. Il semble donc que le régime alimentaire de l'oiseau ne soit pas véritablement impacté par l'artificialisation des sols.
Essayons maintenant d'étudier d'autre caratéristiques afin d'essayer de trouver des raisons à ce pic de diversité.

```{r}
denombrement$Nidification <- rep(NA, nrow(denombrement))
for (i in 1:nrow(denombrement)) {
  if (denombrement$latin[i] %in% no_info){
    denombrement$Nidification[i] <- NA
  }
  else {
    denombrement$Nidification[i] <- 
      alimentation$Nidification[which(alimentation$Nom.latin == denombrement$latin[i])]
  }
}
denombrement$Nidification <- as.factor(denombrement$Nidification)

plot_data = function (data, title) {
    ggplot(data, aes(x="", y=sum, fill=Nidification)) +
    geom_bar(stat="identity", width=0.1) +
    coord_polar("y", start=0) +
    ggtitle(paste("Station: ", as.character(title))) +
    theme_void()
}

#On join les deux tables cite et denombrementCarte

N <- length(unique(denombrement$Code_Maille))
p <- vector("list", length = N)

for (i in 1:N) {
    data <- denombrement[which(denombrement$Code_Maille == unique(denombrement$Code_Maille)[i]),]
    data <- data %>% group_by(Nidification) %>% summarise(sum = sum(p, na.rm = TRUE))
    p[[i]] <- plot_data(data, unique(denombrement$Nom_lieu)[i])
}

coordinates <- st_as_sf(LUP, coords = c("X", "Y"), crs = 2154)
coordinates <- st_transform(coordinates, crs = 4326)
coordinates <- coordinates[coordinates$BufferSize == 500,]

# Remove the coordinates that are not in denombrement
for (i in seq_along(coordinates$ID)){
  if (!(coordinates$ID[i] %in% unique(denombrement$Code_Maille))){
    coordinates <- coordinates[-i,]
  }
}

coordinates <- coordinates[order(coordinates$ID, decreasing = TRUE),]

pal <- colorNumeric("viridis", domain = coordinates$MOS11)
leaflet(data = coordinates) %>%
  addProviderTiles("CartoDB.Positron") %>%
  addCircles(radius = 300, color = ~pal(MOS11), 
             fillOpacity = 0.5, group = "pnt2") %>%
  addLegend("bottomright", pal = pal, values = coordinates$MOS11, title = "MOS11") %>%
  addScaleBar(position = "bottomleft") %>% 
  addPopupGraphs(p, width = 200, height = 200, group = "pnt2")
```

Cette carte illustre la répartition des types de nidification en fonction des zones géographiques. Il est observé que dans les zones centrales, la majorité des nids sont situés dans des cavités, ce qui peut être attribué à la densité élevée de bâtiments et à la rareté de la végétation en ville. Le mode de nidification au sol est le moins courant dans ces zones, probablement en raison de la faible probabilité de survie des oiseaux dans un environnement urbain avec un nid au sol.  

En périphérie, les modes de nidification semblent plus diversifiés, avec une prédominance de la nidification en buisson. La nidification dans les arbres est également très répandue, et on retrouve aussi la nidification en cavité. Le fait de ne pas être situé directement au centre-ville semble offrir plus de possibilités de nidification, ce qui pourrait expliquer une plus grande diversité d'espèces si on s'éloigne légèrement du centre ville, grâce à une combinaison de bâtiments et de végétation offrant plus de choix pour la nidification.

# Pour aller plus loin

Cette section est dédiée à des analyses plus poussées qui pourraient être réalisées pour mieux comprendre les données et les relations entre les différentes variables.
Vous trouverez un Parallel Coordinates Plot ainsi qu'un sun burst plot qui illustrent les caractéristiques des différentes espèces d'oiseaux.

Voici, ci-dessous le Parallel Coordinates Plot intéractif.
Vous pouvez cliquer sur les différentes espèces pour obtenir plus d'informations sur chacune d'elles.

```{r}
# --- Load data ---

birds_info <- read.csv("data/birds/traits-statut-IUCN-biodivercite.csv", header = TRUE)
birds_info <- birds_info[, c(
  "Nom.latin",
  "Niveau.de.spécialisation",
  "Régime.alimentaire",
  "Technique.d.alimentation",
  "Nidification",
  "Période.de.migration"
)]

# --- Parcoords data preparation ---

unique_level <- unique(birds_info[, "Niveau.de.spécialisation"])
unique_regime <- unique(birds_info[, "Régime.alimentaire"])
unique_technique <- unique(birds_info[, "Technique.d.alimentation"])
unique_nidi <- unique(birds_info[, "Nidification"])
unique_migration <- unique(birds_info[, "Période.de.migration"])

plot_ly(data.frame(), type = "parcoords", line = list(color = "blue"), height = 950,
  dimensions = list(
    list(
      label = "Espèces",
      range = c(0, length(birds_info[, "Nom.latin"]) + 1),
      tickvals = 1:length(birds_info[, "Nom.latin"]),
      ticktext = birds_info[, "Nom.latin"],
      values = 1:length(birds_info[, "Nom.latin"])
    ),
    list(
      label = "Technique d'alimentation",
      range = c(0, length(unique_technique) + 1),
      tickvals = as.numeric(factor(unique_technique)),
      ticktext = unique_technique,
      values = as.numeric(factor(birds_info[, "Technique.d.alimentation"]))
    ),
    list(
      label = "Nidification",
      range = c(0, length(unique_nidi) + 1),
      tickvals = as.numeric(factor(unique_nidi)),
      ticktext = unique_nidi,
      values = as.numeric(factor(birds_info[, "Nidification"]))
    ),
    list(
      label = "Niveau de spécialisation",
      range = c(0, length(unique_level) + 1),
      tickvals = as.numeric(factor(unique_level)),
      ticktext = unique_level,
      values = as.numeric(factor(birds_info[, "Niveau.de.spécialisation"]))
    ),
    list(
      label = "Période de migration",
      range = c(0, length(unique_migration) + 1),
      tickvals = as.numeric(factor(unique_migration)),
      ticktext = unique_migration,
      values = as.numeric(factor(birds_info[, "Période.de.migration"]))
    ),
    list(
      label = "Régime alimentaire",
      range = c(0, length(unique_regime) + 1),
      tickvals = as.numeric(factor(unique_regime)),
      ticktext = unique_regime,
      values = as.numeric(factor(birds_info[, "Régime.alimentaire"]))
    )
  )
) %>% layout(
  title = "Caractéristiques des différentes espèces d'oiseaux",
  margin = list(l = 140, r = 55, b = 0)
)
```

### Exemple d'utilisation :

- Nous voulons savoir le régime alimentaire des oiseaux qui migrent. 
Pour cela, il suffit de cliquer au niveau de "migrateur tardif" et de cliquer sur "Végétarien", "Mixte" ou "carnivore" pour obtenir les espèces d'oiseaux qui correspondent à ces critères.
Ceci est très utile lorsqu'on veut comparer le nombre d'oiseau selon les caractéristiques choisies ou même simplement rechercher l'espèce qui correspond à certains critères que l'on veut étudier.
Pour finir l'exemple, si on clique au niveau de "Migrateur tardif", on remarque qu'aucun oiseau n'est végétarien.
De plus, on peut affiner notre sélection pour voir quelles espèces d'oiseaux sont des migrateurs tardifs et font leur nid dans les buissons.
On clique ainsi sur buisson et on voit que l'espèce "Lanius collurio" correspond à ces critères.
C'est une espèce carnivore qui migre tardivement et fait son nid dans les buissons qui a un niveau de spécialisation agricole et qui s'alimente en vol.

<center>
  ![Voici une image de la pie-grièche écorcheur (Lanius collurio), wikipedia](https://upload.wikimedia.org/wikipedia/commons/b/b0/Lanius_collurio_5.jpg)
</center>

```{r}
# --- Load data ---

LUP <- read.csv("data/birds/LandUsePer_BM_2023_cartoISea.csv", header = TRUE)
LUP <- LUP[, c(c("ID", "BufferSize"), paste0("MOS", 1:14))]

birds_obs <- read.csv("data/birds/Oiseaux_up_to_2023.csv", header = TRUE, sep = "\t")
birds_obs <- birds_obs[, c(c("Code_Maille", "Date", "Nom_Taxon_Cite", "Denombrement_min"))]
birds_obs <- birds_obs %>%
  rename(Year = Date, ID = Code_Maille, Latin = Nom_Taxon_Cite)

birds_obs[, "Year"] <- substr(birds_obs[, "Year"], start = 1, stop = 4)
birds_obs[, "Latin"] <- sapply(strsplit(birds_obs[, "Latin"], split = " | ", fixed = TRUE), function(x) x[1])

birds_obs <- birds_obs %>%
  group_by(ID, Year, Latin) %>%
  summarise(Sum = sum(Denombrement_min), .groups = "drop")

LUP_birds_obs <- merge(LUP, birds_obs, by = "ID")

# --- Sunburst data preparation ---

unique_year <- unique(LUP_birds_obs[, "Year"])
unique_year <- unique_year[order(unique_year)]

ids <- c("Année", unique_year)
for (year in unique_year) {
  ids <- c(ids, paste0(year, paste0(" - MOS", 1:14)))
}

for (year in unique_year) {
  for (mos in paste0("MOS", 1:14)) {
    for (specie in birds_info[, "Nom.latin"]) {
      ids <- c(ids, paste0(year, paste0(paste0(" - ", mos), paste0(" - ", specie))))
    }
  }
}

labels <- c("Année", unique_year, rep(paste0("MOS", 1:14), times = length(unique_year)))
labels <- c(labels, rep(birds_info[, "Nom.latin"], times = 14 * length(unique_year)))

parents <- c("", rep("Année", times = length(unique_year)), rep(unique_year, each = 14))
for (year in unique_year) {
  parents <- c(parents, paste0(year, rep(paste0(" - MOS", 1:14), each = length(birds_info[, "Nom.latin"]))))
}

values <- c(c(length(unique_year) * 14000, rep(14000, times = length(unique_year))), rep(1000, times = length(unique_year) * 14))
for (year in unique_year) {
  for (mos in paste0("MOS", 1:14)) {
    for (specie in birds_info[, "Nom.latin"]) {
      tmp <- LUP_birds_obs[LUP_birds_obs["Year"] == year & LUP_birds_obs["Latin"] == specie & LUP_birds_obs["BufferSize"] == 500, ]
      values <- c(values, sum(tmp[mos] * tmp["Sum"]))
    }
    tail_values <- values[(1 + length(values) - length(birds_info[, "Nom.latin"])):length(values)]
    values[(1 + length(values) - length(birds_info[, "Nom.latin"])):length(values)] <- tail_values / sum(tail_values) * 1000
  }
}

is_nan_values <- !is.na(values) & values != 0
ids <- ids[is_nan_values]
labels <- labels[is_nan_values]
parents <- parents[is_nan_values]
values <- values[is_nan_values]

# --- Sunburst display ---

plot_ly(
  ids = ids,
  labels = labels,
  parents = parents,
  values = values,
  type = "sunburst",
  branchvalues = "total",
  maxdepth = 2,
  insidetextorientation = "radial",
  hoverinfo = "label+percent entry",
  height = 800
) %>% layout(
  title = list(
    text = "Proportion des espèces d'oiseaux les plus couramment observées<br>en fonction de l'année et du MOS",
    y = 1.1
  ),
  margin = list(t = 100)
)
```

# Conclusion


Après avoir mené une étude approfondie sur la diversité des oiseaux à Bordeaux et sa périphérie, nous avons pu faire plusieurs découvertes intéressantes en utilisant différentes mesures de diversité telles que la richesse spécifique, l'indice de Shannon et l'indice de Simpson.

Tout d'abord, nous avons découvert que la diversité des espèces d'oiseaux est étroitement liée au niveau d'artificialisation des sols, mesuré par la variable MOS11. En effet, nous avons constaté que la diversité est plus élevée dans les zones où se mélangent espaces verts et zones urbanisées. Cette observation suggère que les zones urbaines qui préservent des espaces verts et des habitats naturels sont plus susceptibles d'accueillir une grande diversité d'espèces d'oiseaux.

Ensuite, nous avons étudié la relation entre la diversité des espèces d'oiseaux et la distance au centre-ville. Nous avons constaté que la diversité est plus grande lorsque la maille se trouve à environ 9 km du centre-ville. Cette tendance s'explique en partie par le fait que les zones situées à cette distance du centre-ville sont souvent des zones de transition entre les espaces urbains et les espaces ruraux, offrant ainsi une variété d'habitats pour les oiseaux.

Par la suite, nous avons essayé de trouver des liens entre la diversité des espèces d'oiseaux et d'autres caractéristiques telles que les régimes alimentaires, les niveaux de spécialisation et les modes de nidification.

Pour les niveaux de spécialisation, nous avons observé que les oiseaux de type Bâti sont plus répandus dans les zones urbaines, tandis que les oiseaux de type Forêt et Agricole sont plus fréquents en périphérie. Il y aussi de nombreuses espèces de type Zone humide près des points d'eau. Il y a de nombreuses espèces généralistes au centre-ville et en périphérie. Ces observations suggèrent  que la diversité des espèces est influencée par les caractéristiques des habitats.

Nous avons également étudié les régimes alimentaires des oiseaux et avons constaté que le régime alimentaire de l'oiseau ne semble pas être impacté par l'artificialisation des sols. Cette observation suggère que les oiseaux sont capables de s'adapter à leur environnement et de trouver de la nourriture même dans les zones urbaines.

Enfin, nous avons étudié les modes de nidification des oiseaux et avons constaté que les zones qui combinent à la fois végétation et bâtiments sont plus susceptibles d'accueillir des oiseaux avec des modes de nidification variés. Par exemple, les zones centrales sont propices à la nidification en cavité en raison de la densité élevée de bâtiments, tandis que les zones périphériques offrent plus de possibilités de nidification en buisson et dans les arbres.                                                                                     
Cette observation souligne l'importance de préserver et de restaurer les habitats naturels dans les zones urbaines pour maintenir un niveau maximal de diversité des espèces d'oiseaux.

En conclusion, notre étude a permis de mettre en évidence l'importance de préserver et de restaurer les habitats naturels dans les zones urbaines pour maintenir la biodiversité des oiseaux. Nous avons constaté que les zones de transition entre les espaces urbains et ruraux sont des zones clés pour la diversité des espèces d'oiseaux. Nous avons également observé que les oiseaux sont capables de s'adapter à leur environnement et de trouver de la nourriture même dans les zones urbaines. Ces résultats soulignent l'importance de prendre en compte la biodiversité dans les politiques d'aménagement urbain et de préserver les habitats naturels pour maintenir la diversité des espèces d'oiseaux. En utilisant différentes mesures de diversité, nous avons pu confirmer ces résultats et renforcer la validité de notre étude.

```{r}
mos_table <- read.csv("data/birds/themes_mos_gir.txt", header = TRUE, sep = "\t")
mos_table <- mos_table[, c("ID", "MOS")]
mos_table["ID"] <- paste0("MOS", mos_table[, "ID"])

mos_table
```